只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技
只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技今天要讲的On-Policy Distillation(同策略/在线策略蒸馏)。这是一个Thinking Machines整的新活,这个新策略既有强化学习等在线策略方法的相关性和可靠性;又具备离线策略(Off-policy)方法的数据效率。
来自主题: AI资讯
8085 点击 2025-10-29 11:12